PF-ETL : vers l'intégration de données massives dans les fonctionnalités d'ETL
نویسندگان
چکیده
ETL process (Extracting, Transforming, Loading) is responsible for extracting data from heterogeneous sources, transforming and finally loading them into a data warehouse. New technologies, particularly Internet and Web 2.0, generating data at an increasing rate, put the information systems (IS) face to the challenge of Big Data. These data are characterized by, in addition to their excessive sizes and speed with which they are generated, greater heterogeneity due to the emergence of new data structures. Integration systems and ETL in particular should be revisited and adapted to cope with the impact of Big Data. In this context and to better manage the integration of Big data, we propose a new approach to ETL process for which we define features that can be run easily on a cluster with MapReduce (MR) model. MOTS-CLES : ETL, Données massives, Entrepôts de données, MapReduce, Cluster
منابع مشابه
Vers l'intégration de la prédiction dans les cubes OLAP
L’analyse en ligne OLAP (On Line Analytical Processing) soutient les entrepôts de données dans le processus d’aide à la décision. Cependant, il n’existe pas d’outils pour guider l’utilisateur dans l’exploration, ni pour approfondir l’analyse vers l’explication et la prédiction. Dans un processus décisionnel, un utilisateur peut vouloir anticiper la réalisation d’évènements futurs. Le couplage d...
متن کاملOn-line Learning for Very Large Datasets Apprentissage Stochastique pour Très Grands Echantillons
La conception de très grand systèmes d’apprentissage pose un grand nombre de problèmes non résolus. Savons nous, par exemple, construire un algorithme qui “regarde” la télévision pendant quelques semaines et apprend à énumérer les objets présents dans ces images. Les lois d’échelles de nos algorithmes ne nous permettent pas de traiter les quantités massives de données que cela implique. L’expér...
متن کاملVers une architecture d'adaptation automatique des applications reparties basées composants
Résumé. Les systèmes informatiques d’aujourd'hui sont de plus en plus pervasifs, composés de composants hétérogènes fournissant des fonctionnalités avec des interactions complexes. Les recherches existantes sur le développement à base de composants ont surtout porté sur la structure des composants, les interfaces et les fonctionnalités de ces derniers. Le domaine de l'architecture logicielle tr...
متن کاملVers l'intégration multidimensionnelle d'Open Data dans les entrepôts de données
Résumé. L’émergence de nombreuses sources d’Open Data poussent plusieurs communautés de recherche ainsi que des entreprises à développer des outils permettant leur exploitation. En particulier, les données statistiques présentes dans les Open Data peuvent constituer des informations utiles aux analyses décisionnelles. Toutefois les Open Data très hétérogènes et disséminés en plusieurs morceaux ...
متن کاملPanorama de travaux autour de l'intégration de données spatio-temporelles dans les hypercubes
Résumé : Cet article présente un panorama des différents travaux qui sont effectués dans notre équipe autour de l’intégration des données spatiotemporelles dans les entrepôts de données et les hypercubes. Nous nous sommes plus particulièrement intéressés à la prise en compte des évolutions dans les dimensions spatiales, à la modélisation multidimensionnelle de données continues et à la concepti...
متن کامل